삼정KPMG “복잡한 금융 리스크, AI가 효율적으로 관리” – 바이라인네트워크
삼정KPMG는 AI 기술을 활용하여 금융 리스크 관리의 효율성을 높일 수 있다고 강조하며, 특히 신용평가, 담보평가, 대출 심사 등 다양한 분야에서 AI의 활용 가능성을 제시했다.
광학 문자 인식(OCR)은 스캔한 문서나 이미지 속의 문자를 인식하여 텍스트 데이터로 변환하는 기술이다. 1928년 독일에서 시작된 OCR 기술은 전신 기술 및 시각 장애인을 위한 읽기 장치 개발과 관련되어 발전했다. 초기에는 패턴 매칭 방식을 사용했으며, 1950년대에는 상업적으로 활용되기 시작하여 신용 카드, 우편물, 공문서 등 다양한 분야에서 데이터 입력 자동화에 기여했다. 현재는 딥러닝 기술을 활용한 OCR 소프트웨어가 개발되어 정확도를 높이고 있으며, 데이터 입력, 자동 번호판 인식, 시각 장애인 보조 기술 등 다양한 분야에서 활용되고 있다. OCR 기술은 유니코드 표준에도 포함되어 있으며, 특수 글꼴 및 콤 필드, 크라우드소싱 등 다양한 방법으로 정확도를 개선하려는 노력이 이루어지고 있다.
광학 문자 인식 | |
---|---|
개요 | |
종류 | 문자 인식 |
분야 | 패턴 인식, 인공지능, 컴퓨터 비전 |
사용 | 데이터 항목 수표 처리 데이터 마이닝 문서 디지털화 번역 광학 문자 인식 (OCR) 시스템 |
다른 이름 | 텍스트 인식 |
역사 | |
초기 개발 | 1914년: Emanuel Goldberg, 기계적 통계 장치 개발 1929년: Gustav Tauschek, 특허 출원 |
발전 | 1950년대: David Shepard, 상업용 OCR 시스템 개발 1970년대: Ray Kurzweil, omni-font OCR 기술 개발 |
기술 | |
단계 | 전처리 문자 분할 문자 인식 후처리 |
전처리 | 이미지 품질 향상 (이진화, 잡음 제거, 기울기 보정) |
문자 분할 | 단어 및 문자 분리 |
문자 인식 | 패턴 매칭 또는 특징 추출 사용 |
후처리 | 문맥 및 통계 정보 활용, 정확도 향상 |
방법 | |
패턴 매칭 | 저장된 글리프와 비교 |
특징 추출 | 선, 고리, 방향과 같은 특징 식별 |
머신 러닝 | 신경망 및 딥 러닝 모델 사용 |
응용 분야 | |
문서 처리 | 종이 문서 디지털화 및 편집 가능한 텍스트로 변환 |
자동 데이터 입력 | 양식 및 송장에서 데이터 추출 |
접근성 | 시각 장애인을 위한 텍스트 음성 변환 |
번역 | 이미지에서 텍스트 추출 후 번역 |
언어 지원 | |
지원 언어 | 다양한 언어 지원 (영어, 중국어, 한국어, 일본어 등) |
과제 및 제한 사항 | |
이미지 품질 | 낮은 품질의 이미지 또는 스캔은 정확도에 영향 |
글꼴 변형 | 다양한 글꼴 및 스타일은 문제 발생 가능 |
복잡한 레이아웃 | 복잡한 문서 레이아웃은 처리 어려움 |
손글씨 인식 | 손글씨 인식은 여전히 어려운 과제 |
OCR 기술은 1928년 독일의 G. Taushek가 특허를 등록하면서 시작되었다. 그는 미리 준비된 몇 개의 표준 패턴 문자와 입력 문자를 비교하여 가장 유사한 것을 해당 문자로 선정하는 패턴 매칭 기법을 이용했다.[77]
1950년, 미국 국가 안보국(AFSA)의 전신)의 암호 해독자 데이비드 H. 셰퍼드는 인쇄된 문서를 컴퓨터가 처리할 수 있는 형식으로 변환하는 기계 "Gismo"를 만들고, 1953년 특허를 취득했다. Gismo는 영어 알파벳 23글자를 읽을 수 있었고, 모스 부호와 악보를 읽을 수 있었으며, 활자 페이지를 읽어 프린터로 복제할 수 있었다. 셰퍼드는 이후 회사를 설립하여 세계 최초의 몇몇 상용 OCR 시스템을 출하했다. Gismo와 IMR 시스템은 단순한 문자 매칭이 아닌 이미지 분석을 했고, 몇몇 서체를 인식할 수 있었다. Gismo는 이미지 속 문자의 위치를 정확하게 맞출 필요가 있었지만, IMR 시스템에서는 스캔 영역의 어느 문자인지 상관없이 인식할 수 있어 실용적이었다.[46]
최초의 상용 시스템은 1955년 리더스 다이제스트사에 납품되어 판매 보고서를 컴퓨터에 입력하는 데 사용되었다. 스탠다드 오일은 캘리포니아주에서 신용 카드의 문자를 읽기 위해 사용했고, 다른 석유 회사들도 이를 따랐다. IMR이 1950년대 후반에 판매한 다른 시스템으로는 전화 회사의 청구서 판독 장치와 미국 공군의 텔레타이프용 페이지 스캐너 등이 있다. IBM 등은 후에 셰퍼드로부터 OCR 특허의 라이선스를 제공받았다.[43]
1965년경, 리더스 다이제스트와 RCA는 잡지 광고 쿠폰의 시리얼 번호를 읽는 OCR 장치를 공동 개발했다. 이 기술은 트랜스 월드 항공에서 항공 티켓 판독에도 사용되었다. RCA는 이를 제품화하여 보험 회사 등이 채용했다.
미국 우정 공사는 1965년부터 제이콥 라비노우가 개발한 기술을 토대로 OCR 머신을 사용하고 있다. 유럽에서 OCR을 최초로 채택한 것은 영국의 우체국이었다. 영국에서는 1965년, 우편 저금에 해당하는 내셔널 지로가 OCR을 사용한 자동화를 했다. 캐나다 우체국은 1971년부터 OCR을 사용하고 있다. 한편, 일본에서는 한자 판독이 어려워 1968년 7월 1일에 일본의 우편 번호가 도입되었고, 손으로 쓴 숫자인 우편 번호를 OCR 시스템으로 읽어 정렬했다. 1998년 우편 번호 7자리화 이후에는 OCR로 읽은 뒤 바코드를 인쇄하게 되었다.
OCR(광학 문자 인식)은 정적 문서를 분석하는 오프라인 프로세스이다. 타자기 텍스트를 대상으로 하는 광학 문자 인식은 한 번에 하나의 글리프 또는 문자를 인식하며, 광학 단어 인식은 한 번에 단어 하나씩 인식한다. 광학 단어 인식은 일반적으로 "OCR"이라고 불린다.
손으로 쓴 인쇄체나 필기체 텍스트를 대상으로 할 때는 지능형 문자 인식(ICR) 또는 지능형 단어 인식(IWR)을 사용한다. ICR은 한 번에 하나의 글리프 또는 문자를, IWR은 한 번에 단어 하나씩 인식하며, 주로 기계 학습이 사용된다. IWR은 특히 필기체에서 글리프가 분리되지 않는 언어에 유용하다.
온라인 OCR API 서비스를 제공하는 클라우드 기반 서비스도 있다. 필기 움직임 분석은 필기 인식의 입력으로 사용될 수 있는데[14], 글리프와 단어의 모양뿐만 아니라 세그먼트가 그려지는 순서, 방향, 펜을 내려놓고 들어올리는 패턴 등 움직임을 포착하여 정확도를 높인다. 이 기술은 "온라인 문자 인식", "동적 문자 인식", "실시간 문자 인식", "지능형 문자 인식" 등으로도 알려져 있다.
OCR 기술은 다양한 분야에서 활용되고 있으며, 그 예는 다음과 같다.
타자된 라틴 문자 텍스트의 인식은 선명한 이미지를 사용할 수 있는 경우에도 100% 정확하지 않다. 19세기와 20세기 초 신문 페이지의 인식을 기반으로 한 연구에 따르면 상업용 OCR 소프트웨어의 문자별 OCR 정확도는 81%에서 99%까지 다양했다.[36] 전체 정확도는 사람의 검토 또는 데이터 사전 인증을 통해 얻을 수 있다. 손글씨, 필기체 인식 및 기타 스크립트(특히 한 글자에 획이 많은 동아시아 언어 문자)의 인쇄된 텍스트 인식은 여전히 활발한 연구 대상이다. MNIST 데이터베이스는 손으로 쓴 숫자를 인식하는 시스템의 능력을 테스트하는 데 일반적으로 사용된다.
정확도 비율은 여러 가지 방법으로 측정할 수 있으며, 측정 방법에 따라 보고된 정확도 비율에 큰 영향을 미칠 수 있다. 예를 들어, 소프트웨어가 존재하지 않는 단어를 찾도록 수정하기 위해 단어 컨텍스트(단어의 어휘)를 사용하지 않으면, 문자 오류율이 1%(99% 정확도)인 경우 각 전체 단어가 잘못된 문자가 없이 인식되었는지 여부를 기준으로 측정을 하면 오류율이 5% 이상으로 발생할 수 있다.[37] 신경망 기반 필기 인식 솔루션에서 충분한 크기의 데이터 세트를 사용하는 것이 중요하다. 반면에 자연스러운 데이터 세트를 생성하는 것은 매우 복잡하고 시간이 오래 걸린다.[38]
오래된 텍스트를 디지털화하는 데 내재된 어려움의 예는 OCR이 "long s"와 "f" 문자를 구별할 수 없다는 것이다.[39][34]
손으로 인쇄된 텍스트를 즉시 인식하는 웹 기반 OCR 시스템은 최근 몇 년간 상업 제품으로 널리 알려지게 되었다. 깔끔하고 깨끗하게 손으로 인쇄된 문자에 대한 정확도 비율은 펜 컴퓨팅 소프트웨어로 80%에서 90%까지 달성할 수 있지만, 해당 정확도 비율은 여전히 페이지당 수십 개의 오류로 이어지므로 이 기술은 매우 제한적인 응용 분야에서만 유용하다.
필기체 텍스트 인식은 활발한 연구 분야이며, 손으로 인쇄된 텍스트보다 인식률이 더 낮다. 컨텍스트 또는 문법 정보를 사용하지 않고 일반적인 필기체 스크립트의 더 높은 인식률은 불가능할 것이다. 예를 들어, 개별 문자를 구문 분석하는 것보다 사전에서 전체 단어를 인식하는 것이 더 쉽다. 수표의 ''금액'' 줄(항상 쓰여진 숫자)을 읽는 것은 작은 사전을 사용하면 인식률을 크게 높일 수 있는 예이다. 개별 필기체 문자의 모양 자체는 모든 손으로 쓴 필기체 스크립트를 정확하게(98% 이상) 인식할 만큼 충분한 정보를 포함하지 않는다.
대부분의 프로그램에서는 사용자가 "신뢰도"를 설정할 수 있다. 즉, 소프트웨어가 원하는 정확도 수준을 달성하지 못하면 수동 검토를 위해 사용자에게 알릴 수 있다.
OCR 스캔으로 인해 발생하는 오류는 때때로 오타라는 용어와 유사하게 ''scanno''라고 한다.[40][41]
광학 문자 인식(OCR)은 여러 한계를 가지며, 이를 극복하기 위한 다양한 방법들이 연구 및 활용되고 있다.
OCR을 지원하는 문자는 1993년 6월, 버전 1.1이 출시되면서 유니코드 표준에 추가되었다.
이러한 문자 중 일부는 MICR, OCR-A 또는 OCR-B에 특정한 글꼴에서 매핑된다.
광학 문자 인식 | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F | |
U+244x | ⑀ | ⑁ | ⑂ | ⑃ | ⑄ | ⑅ | ⑆ | ⑇ | ⑈ | ⑉ | ⑊ |
[1]
웹사이트
OCR Document
https://dev.havenond[...]
[2]
웹사이트
Supported Media Formats
https://dev.havenond[...]
[3]
서적
The history of OCR, optical character recognition
https://archive.org/[...]
Recognition Technologies Users Association
[4]
서적
Advanced Image-Based Spam Detection and Filtering Techniques
https://books.google[...]
IGI Global
2017
[5]
논문
On a Type-Reading Optophone
1914-07-01
[6]
간행물
The History of OCR
[7]
웹사이트
Extracting text from images using OCR on Android
https://community.ha[...]
2015-06-27
[8]
웹사이트
[Tutorial] OCR on Google Glass
https://community.ha[...]
2014-10-23
[9]
서적
Wireless Communications, Networking and Applications: Proceedings of WCNA 2014
https://books.google[...]
Springer
2015
[10]
웹사이트
[javascript] Using OCR and Entity Extraction for LinkedIn Company Lookup
https://community.ha[...]
2014-07-22
[11]
웹사이트
How To Crack Captchas
http://www.andrewt.n[...]
andrewt.net
2013-06-16
[12]
웹사이트
Breaking a Visual CAPTCHA
http://www.cs.sfu.ca[...]
Cs.sfu.ca
2013-06-16
[13]
웹사이트
John Resig – OCR and Neural Nets in JavaScript
http://ejohn.org/blo[...]
Ejohn.org
2013-06-16
[14]
논문
The state of the art in online handwriting recognition
[15]
웹사이트
Optical Character Recognition (OCR) – How it works
https://www.nicomsof[...]
Nicomsoft.com
2013-06-16
[16]
논문
Survey over image thresholding techniques and quantitative performance evaluation
http://webdocs.cs.ua[...]
2015-05-02
[17]
논문
OCR binarisation and image pre-processing for searching historical documents.
http://www.rfai.li.u[...]
2015-05-02
[18]
논문
Goal-directed evaluation of binarisation methods.
http://heim.ifi.uio.[...]
2015-05-02
[19]
서적
2013 12th International Conference on Document Analysis and Recognition
https://www.microsof[...]
2015-05-02
[20]
논문
Word Level Multi-script Identification
1987-05-29
[21]
웹사이트
Basic OCR in OpenCV | Damiles
http://blog.damiles.[...]
Blog.damiles.com
2008-11-20
[22]
웹사이트
OCR Introduction
http://www.dataid.co[...]
Dataid.com
2013-06-16
[23]
웹사이트
How OCR Software Works
http://ocrwizard.com[...]
OCRWizard
2013-06-16
[24]
웹사이트
The basic pattern recognition and classification with openCV | Damiles
http://blog.damiles.[...]
Blog.damiles.com
2008-11-14
[25]
웹사이트
An Overview of the Tesseract OCR Engine
http://tesseract-ocr[...]
2013-05-23
[26]
웹사이트
OCR as a Service: An Experimental Evaluation of Google Docs OCR, Tesseract, ABBYY FineReader, and Transym
https://www.research[...]
2016-12
[27]
웹사이트
How the Best OCR Technology Captures 99.91% of Data
https://www.bisok.co[...]
2021-05-27
[28]
웹사이트
How does OCR document scanning work?
http://www.explainth[...]
Explain that Stuff
2013-06-16
[29]
웹사이트
How to optimize results from the OCR API when extracting text from an image? - Haven OnDemand Developer Community
https://community.ha[...]
[30]
뉴스
How We Sped Through 900 Pages of Cohen Documents in Under 10 Minutes
https://www.nytimes.[...]
2023-06-16
[31]
웹사이트
Train Your Tesseract
http://trainyourtess[...]
2018-09-20
[32]
웹사이트
What is the point of an online interactive OCR text editor? - Fenno-Ugrica
http://blogs.helsink[...]
2014-02-21
[33]
논문
Detecting Figures and Part Labels in Patents: Competition-Based Development of Image Processing Algorithms
2016-02-20
[34]
웹사이트
Google Books Ngram Viewer
https://books.google[...]
2023-07-20
[35]
웹사이트
Code and Data to evaluate OCR accuracy, originally from UNLV/ISRI
https://code.google.[...]
Google Code Archive
[36]
웹사이트
How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs
http://www.dlib.org/[...]
D-Lib Magazine
2009-04-00
[37]
학회발표
Future Challenges in Handwriting and Computer Applications
http://users.erols.c[...]
1987-05-29
[38]
서적
Comparison of Synthesized and Natural Datasets in Neural Network Based Handwriting Solutions
https://civilica.com[...]
ITCT
2019
[39]
서적
Research and Advanced Technology for Digital Libraries
https://books.google[...]
Springer
2015
[40]
학술지
Reinventing nonpatent literature for pharmaceutical patenting
[41]
웹사이트
scanno
https://www.hoopoes.[...]
2001-05-00
[42]
웹사이트
OCR Document
https://web.archive.[...]
[43]
서적
The History of OCR
Recognition Technologies Users Association
1982
[44]
서적
Advanced Image-Based Spam Detection and Filtering Techniques
https://books.google[...]
IGI Global
2017
[45]
잡지
Reading Machine Speaks Out Loud
https://books.google[...]
1949-02-00
[46]
뉴스
Washington Daily News & New York Times
Washington Daily News & New York Times
1951-04-27
[47]
문서
カーツワイルは書体を選ばないOCR技術の発明者とされることもあるが、1960年代末ごろから同様の技術を開発する企業がいくつか出現している。詳しくは Schantz, ''The History of OCR''; ''Data processing magazine'', Volume 12 (1970), p. 46 を参照
[48]
뉴스
音声ソフトの ScanSoft、競合する Nuance を買収
http://japan.interne[...]
japan.internet.com
2005-05-10
[49]
서적
Wireless Communications, Networking and Applications: Proceedings of WCNA 2014
https://books.google[...]
Springer
2015-10-28
[50]
웹사이트
Using OCR and Entity Extraction for LinkedIn Company Lookup
https://web.archive.[...]
2014-07-22
[51]
웹사이트
How To Crack Captchas
http://www.andrewt.n[...]
andrewt.net
2006-06-28
[52]
웹사이트
Breaking a Visual CAPTCHA
http://www.cs.sfu.ca[...]
Cs.sfu.ca
2002-12-10
[53]
웹사이트
John Resig – OCR and Neural Nets in JavaScript
http://ejohn.org/blo[...]
Ejohn.org
2009-01-23
[54]
학술지
The state of the art in online handwriting recognition
https://semanticscho[...]
[55]
웹사이트
Optical Character Recognition (OCR) – How it works
https://www.nicomsof[...]
Nicomsoft.com
[56]
학술지
Survey over image thresholding techniques and quantitative performance evaluation
http://webdocs.cs.ua[...]
2004
[57]
학술지
OCR binarisation and image pre-processing for searching historical documents.
http://www.rfai.li.u[...]
2007
[58]
학술지
Goal-directed evaluation of binarisation methods.
http://heim.ifi.uio.[...]
1995
[59]
학술지
Image binarisation for end-to-end text understanding in natural images.
https://www.microsof[...]
2013
[60]
학술지
Word Level Multi-script Identification
1987-05-29
[61]
웹사이트
Basic OCR in OpenCV | Damiles
http://blog.damiles.[...]
Blog.damiles.com
2008-11-20
[62]
웹사이트
OCR Introduction
http://www.dataid.co[...]
Dataid.com
[63]
웹사이트
How OCR Software Works
https://web.archive.[...]
OCRWizard
[64]
웹사이트
The basic pattern recognition and classification with openCV | Damiles
http://blog.damiles.[...]
Blog.damiles.com
2008-11-14
[65]
웹사이트
An Overview of the Tesseract OCR Engine
https://web.archive.[...]
[66]
특허
http://patft.uspto.g[...]
[67]
웹사이트
How does OCR document scanning work?
http://www.explainth[...]
Explain that Stuff
2012-01-30
[68]
웹사이트
How to optimize results from the OCR API when extracting text from an image? - Haven OnDemand Developer Community
https://web.archive.[...]
[69]
뉴스
How We Sped Through 900 Pages of Cohen Documents in Under 10 Minutes
https://www.nytimes.[...]
The New York Times
2019-03-26
[70]
웹사이트
Train Your Tesseract
http://trainyourtess[...]
2018-09-20
[71]
웹사이트
What is the point of an online interactive OCR text editor? - Fenno-Ugrica
http://blogs.helsink[...]
2020-12-21
[72]
논문
Detecting Figures and Part Labels in Patents: Competition-Based Development of Image Processing Algorithms
2016-02-20
[73]
웹사이트
The Fifth Annual Test of OCR Accuracy
http://www.stephenvr[...]
2012-04-27
[74]
웹사이트
How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs
http://www.dlib.org/[...]
D-Lib Magazine
2011-01-05
[75]
논문
Future Challenges in Handwriting and Computer Applications
http://users.erols.c[...]
3rd International Symposium on Handwriting and Computer Applications, Montreal, May 29, 1987
2008-10-03
[76]
논문
The State of the Art in On-line Handwriting Recognition
http://users.erols.c[...]
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol 12 No 8, August 1990, pp 787-ff
2008-10-03
[77]
웹사이트
http://cusee.net/246[...]
( 최근 20개의 뉴스만 표기 됩니다. )
삼정KPMG는 AI 기술을 활용하여 금융 리스크 관리의 효율성을 높일 수 있다고 강조하며, 특히 신용평가, 담보평가, 대출 심사 등 다양한 분야에서 AI의 활용 가능성을 제시했다.
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com